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摘 要 : 端口 扫描 是 一 种 常见 的 有 效 入 侵 技 术 ， 用 于 搜索 易 受 攻击 的 Internet. 主机 和 端口 。 快 速 端口 扫描 的 检测 技 
术 已 经 成 熟 ， 但 是 隐蔽 的 低速 端口 扫描 检测 效果 有 待 提升 。 针 对 低速 端口 扫描 进行 了 研究 ， 根 据 低速 扫描 的 时 间 持 
续 性 和 特征 分 散 性 ， 提 出 了 一 种 基于 持续 增 量 模型 的 低速 端口 扫描 检测 算法 ， 结 合 条 件 对 特征 分 布 的 评估 达到 检 
测 目的 。 实 验 结果 表明 算法 的 检测 率 能 达到 99.78%， 且 误 报 率 为 7%。 算 法 适用 于 多 种 复杂 网 络 环境 ， 且 不 需要 网 
络 先 验 知 识 ， 检 测 率 对 阔 值 的 精确 性 要 求 低 ， 能 够 有 效 检测 到 低速 端口 扫描 行为 。 
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Low-speed port scan detection algorithm based on continuous incremental model 


Shen Jing, Xue Shaobo, Liu Haibo' 
(School of Computer Science & Technology, Harbin Engineering University, Harbin 150001, China) 


Abstract: Port scanning is a common and effective intrusion technique for searching vulnerable Internet hosts and ports. 
The detection technology of fast port scanning has matured, but the hidden low-speed port scanning detection effect needs to 
be improved. This paper studies low-speed port scanning. According to the time persistence and feature dispersion of 
low-speed scanning, a low-speed port scanning detection algorithm based on continuous incremental model is proposed. The 
conditional entropy is used to evaluate the feature distribution. The experimental results show that the detection rate of the 
algorithm can reach 99.78%, and the false positive rate is 7%. The algorithm is applicable to a variety of complex network 
environments, and does not require network prior knowledge. The detection rate has low accuracy on the threshold, and can 
effectively detect low-speed port scanning behavior. 
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0 ”引言 动 映射 来 考虑 连接 尝试 失败 的 良性 原因 ， 能 有 效应 对 环境 变 
E 化 的 和 干扰， 显著 降低 误 报 率 。 文 献 [4] 开 发 了 一 个 基于 规则 的 

端口 扫描 是 网 络 入侵 的 重要 组 成 部 分 ， 端 口 的 开放 状态 网 络 入 侵 检 测 系 统 ， 可 在 snort 平台 上 使 用 。 文 献 [5] 提 出 了 
意味 着 通信 渠道 是 否 顺畅 ， 攻 击 者 通过 发 送 试探 性 报 文 来 发 ”一 种 虚拟 网 络 功能 架构 ,用 于 在 网 络 功 能 虚拟 化 云 开放 平台 
现 目标 系统 存在 的 漏洞 ， 并 利用 这 些 漏洞 对 目标 主机 进行 攻 中 检测 端口 扫描 行为 ， 对 分 布 式 端口 扫描 行为 具有 良好 的 检 
二 0。 因 此 ， 有 效 的 端口 扫描 行为 检测 可 以 将 部 分 入 侵 行为 测 效果 。 以 上 方法 对 于 速度 快 的 扫描 行为 可 以 实现 很 好 的 检 
杀 在 萌芽 状态 ， 从 而 达到 防 患 于 未 然 的 效果 ， 减 少 恶意 攻 M, 但 是 难以 检测 低速 的 端口 扫描 行为 。 文 献 [6] 采 用 模糊 技 
行为 所 带 来 的 损失 。 术 方 法 进行 异常 检测 ， 具 有 一 定 的 效果 ， 但 存在 参数 敏感 问 
现在 有 众多 的 安全 工具 可 以 实现 扫描 一 个 范围 的 端口 和 题 。 邵 国 林 等 人 在 文献 [7] 中 提出 一 种 基于 Dempster-Shafer 

IP 地址。 不过, 一 个 入 侵 监 测 系统 IDS) 一 般 将 能 够 捕获 这 种 证 据 理论 的 检测 方法 ， 不 需要 训练 精确 的 冰 值 ， 且 能 够 检测 
明显 的 扫描 行为 , 然后 可 以 通过 阻挡 源 IP. 地 址 来 实现 关闭 这 不 同 速度 的 端口 扫描 攻击 。 文 献 [3] 提 出 一 种 协调 扫描 检测 算 
个 扫描 ， 或 者 自动 向 安全 管理 员 告 警 。 但 是 多 数 认真 的 攻击 。 法 ,可 对 分 布 式 扫描 攻击 作出 有 效 检测 。 文 献 [9] 用 主 成 分 分 
者 一 般 不 会 通过 执行 这 种 扫描 来 暴露 自己 的 意图 ; 相反 ,他  ” 析 方 法 量化 端口 扫描 的 风险 指数 ,来 检测 低速 端口 扫描 攻击 。 
， 使 用 半 连 接 (half-connection) 尝 试 来 找 出 你 的 。 ”随机 立 值 算法 是 用 于 检测 扫描 仪 的 高 效 且 广泛 引用 的 方法 ， 
可 用 资源 中。 尽管 这 种 低速 的 攻击 方法 很 耗 时 ， 它 实现 起 来 ” 但 是 可 以 通过 将 探测 尝试 与 已 知 活动 主机 的 访问 混合 来 规避 
却 不 困难 ， 更 重要 的 是 很 难 防范 它 。 它们 。 文 献 [10] 提 出 一 种 与 随机 阔 值 互补 的 方法 应 对 规避 策 
对 于 快速 的 端口 扫描 多 采用 基于 阔 值 的 检测 算法 ，snort 各 ， 通 过 目的 主机 的 入 度 情 况 对 源 主机 建立 风险 评估 ， 结 合 
等 大 多 数 的 入 侵 检测 系统 根据 所 配置 的 阀 值 信息 (一 定 的 时 源 主机 的 出 度 评 判 攻 击 的 可 能 性 。 但 是 该 方法 建立 在 目的 主 
间 段 内 允许 某 源 地 址 所 访问 目的 主机 数 和 端口 数 的 最 大 值 )， 机 存在 活跃 度 差异 的 基础 上 ， 对 于 活跃 性 均衡 的 网 络 环境 无 
实时 统计 网 络 主机 所 访问 的 主机 数 和 端口 数 ， 如 果 超 过 所 设 ” 法 适应 。 
定 的 阔 值 则 为 扫描 行为 。 但 是 阔 值 容易 受到 环境 影响 ， 文 献 本 文 根 据 低速 扫描 的 时 间 持 续 性 和 特征 分 散 性 ， 提 出 一 
[3] 提 出 了 改进 的 状态 阔 值 随机 游 走 算法 ,利用 网 络 服务 的 主 种 基于 持续 增 量 模型 的 低速 端口 扫描 检测 算法 。 算 法 选取 两 
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录用 定稿 
个 有 效 特征 组 成 一 个 二 项 集 ， 通 过 
项 集 对 应 特征 的 增长 情况 细 粒 度 的 筛选 出 


最 后 通过 条 件 焙 对 特征 分 布 的 评估 ， 


1 网 络 流量 特征 选取 


1.1 低速 端口 扫描 行为 描述 
端口 扫描 通常 分 为 水 平 扫描 、 


垂直 扫描 和 块 扫 


沈 dh, 


F: 基于 持续 


观察 二 项 集 的 持续 性 和 多 
网 络 中 的 可 颖 流量 。 


检测 低速 端口 扫描 攻击 。 


三 种 情 


况 0 。 水 平 扫描 是 对 多 个 不 同 目的 主机 的 同一 个 端口 进行 扫 


描 ， 
描 是 水 平 扫描 和 垂直 扫 
多 个 端口 进行 扫描 。 


H 


E 直 扫描 是 对 特定 目的 主机 的 多 个 端口 进行 扫描 ， 块 扫 
描 的 结合 ， 是 对 多 个 不 同 目的 主机 的 


有 很 多 端口 扫描 工 


kt ， 用 户 可 以 根据 


,的 需要 选择 不 


同 的 模板 ， 由 Nmap 负责 选择 实际 的 时 间 值 (23。 模 板 也 会 针 


对 其 他 
值 ， 


- 工 1: 


7 


个 探测 间隔 0.4 so 
- 工 3: 
口 丢 失 的 情况 下 尽 可 能 


快速 地 扫描 。 


的 优化 控制 选项 进行 速度 微调 。 
本 文 的 数据 集中 出 现 以 下 三 种 : 
数据 包 的 发 送 间 陋 是 1 5s。 
-T 2: 不 增加 太 大 的 网 络 负载 ， 


Nmap 的 默认 选项 ， 在 不 使 网 络 过 载 或 者 主机 / 端 


参数 -T 有 [0,5] 的 可 选 


串 行 每 个 探测 ， 并 使 每 


参数 -T3 对 应 的 扫描 攻击 为 常见 的 快速 扫描 ,，-T1、-T2 


对 应 的 攻击 称 为 低速 端口 扫描 。 扫 描 的 速度 越 小 ， 
检测 的 难度 也 就 越 大 。 本 文 的 
的 数量 平均 值 为 3 554 条 每 分 钟 ， 参 
数 为 -T 3 时 攻击 数据 所 占 比例 高 达 95%. 


在 单位 时 间 内 所 占 比 重 越 低 ， 
数据 集中 单位 时 间 流 量 


攻击 流量 


知 攻 击 按照 间隔 


0.4s 进行 ， 则 攻击 出 现 的 频率 约 为 0.04， 如 果 间 隔 为 15 s， 


频率 将 更 低 。 因 此 低速 扫描 攻击 的 隐蔽 性 


Ke 


1.2 低速 端口 扫描 特征 分 析 


更 强 ， 检 测 难度 更 


扫描 攻击 发 生 时 源 主机 和 目的 主机 的 连接 示例 如 图 1 所 


示 。 其 中 S 表示 源 主机 ，D 表示 目的 主机 ，C 表示 与 该 源 主 
机 建立 连接 的 不 同 目 的 主机 的 数量 。 


正常 活动 的 源 主机 通常 
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增 量 模型 的 低速 端口 扫描 检测 算法 


协议 类 型 通常 相同 ， 多 为 TCP，UDP fü ICMP. | 


描 的 主要 用 于 侦 测 端口 的 开放 状态 
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于 端口 扫 


就 能 完成 。 为 了 减 小 网 络 开销 攻击 者 ， 
分 控制 在 较 低 范围 ， 报 文 长 度 多 在 300 Bytes 
速 扫描 行为 还 有 两 个 明显 的 特性 : 

a) 持 续 性 。 由 于 采 


Se 


E E. 
， 只 需要 少量 


j 的 是 低速 的 隐蔽 形式 来 扫描 端口 ， 


的 报头 信息 


通常 将 报 文 的 数据 部 


以 下 。 另 外 低 


这 种 攻击 就 要 以 时 间 为 代价 ， 所 以 攻击 具有 持续 性 ， 水 平 扫 


描 的 sip-dpt 组 合 和 垂直 扫 
过 10 min, 
b) 分 散 性 。 
整体 上 呈现 松散 分 布 ， 重 复 率 低 ; 垂直 扫描 的 
应 的 dip 总 量 大 ， 整 体 上 呈现 松散 分 布 ， 重 复 


mi 


水 平 扫 描 的 sip-dpt 组 合 对 应 的 dpt 总 


的 sip-dip 组 合 持续 时 间 通 常 超 


EK, 
sip-dip 组 合 对 
率 低 。 


IE ped E 了 为 在 持续 性 


上 有 明显 的 区 别 ， 理 利用 


m 


流量 ， 为 异常 检测 的 快速 进行 提供 帮助 
2 “异常 流量 检测 算法 


本 文 首 先 用 和 
量 ; 然后 重点 针对 低速 扫描 攻击 作出 检测 。 
点 的 分 析 ， 将 攻击 分 为 水 平 扫描 和 垂直 扫描 ， 


E 和 分 散 性 


这 两 个 特征 能 够 有 效 筛 选 出 可 疑 


特征 信息 炉 方法 ， 挖 掘 出 明显 的 异常 流 
根据 端口 扫描 特 


用 持续 增 量 模 


型 过 滤 使 检测 范围 缩减 到 最 小 ， 再 用 
最 终 的 判定 。 
2.1 (EI HSHESEI T A 


SUR fei IS U1, 438 URS FH ORCI D f 8 SE ERE RI al 


HO Y booten pix) 


其 中 : H(X) 代表 了 随机 变量 x BR fei lb s 
件 二 出 现 的 概率 。 网 络 流量 数据 | 
有 效 度量 系统 参数 分 布 的 变化 情况 ， 描 述 


香农 在 1948 FRAJ 55 vb BEBE: A SU 


po) 代表 随机 事 
离散 信息 源 组 成 ， 
长 时 间 的 随机 过 程 


HRAS RRE 


息 论 中 , 定 
B, 公式 如 下 : 


(1) 


AB n] UJ 


ER Ped E E E E AREE ARE E A dA DU. AFAA H RE 
系统 的 d e 旦 有 异常 流量 发 生 , wE BE REL: 


情况 下 符合 SI 和 S2 的 行为 模式 ,特点 是 这 类 源 主机 和 不 同 
目的 主机 间 建 立 的 连接 数 少 ; 而 攻击 主机 更 符合 S3 的 情况 ， 


其 和 不 同 的 目的 主机 建立 大 量 的 连接 。 


图 1 端口 扫描 攻击 连接 示例 


Fig.1 Port scan attack connection example 


当然 不 能 仅 从 连接 数 的 大 小 来 


区 分 攻击 和 非 攻 击 。 例 如 


服务 器 要 响应 大 量 请 求 时 就 会 反 向 对 请 求 者 发 送 报 文 ， 


的 服务 器 主机 的 C 值 会 


有 更 多 依据 。 


hE, dpt 表示 H 的 端 Els 


很 大 ， 但 服务 器 并 没 
Jt C 值 大 的 源 主机 不 一 定 是 攻击 者 。 对 攻击 行为 的 ; 


本 文 用 sip 表示 源 主机 IP 地 址 ，dip 表示 目的 主机 IP 地 
攻击 发 生 时 相同 sp 和 dip 的 报 文采 
用 的 协议 和 报 文 长 度 具 有 局 部 一 致 性 ， 在 一 定时 间 内 报 文 的 


发 动 攻击 , 
EX 


pi 
E 


ERER, ERE EE NU 
定理 1 a 
D(X)=o? ， 则 对 任意 的 s>0， 必 有 


PX -ujzc)s 2; 

Teu Ee m fi) 

4- e-2o , Jill 
值 往往 


P(|X -u|226)51/4 , 


— 


常 流量 落 在 这 个 区 域 的 概率 小 于 259. 


0.8 4 


息 粒 看 做 随机 变量 ， 根 据 切 比 
当 攻 击发 生 
扁 向 〈0,1) 的 两 端 。 如 果 将 阔 值 设置 为 4+t2c ， 则 异 


` au, 
出 该 异常 。 


设 随 机 变量 X， 


E(X)=4, 


Q) 


雪夫 不 等 式 ， 
M. ERU 


upper warning line 
一 "~ lower warning line 


500 600 700 


图 2 特征 dip fei ERITAR Fg 


800 


Fig.2 Information entropy line graph of feature dip 


2 为 特征 dip 的 信 
单位 为 min; 纵 坐标 表示 特征 


息 炉 折线 图 。 图 中 横 坐 标 表 示 时 间 ， 
dip f $^ ES [RT T DI AI RO XE, 
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经 过 归 一 化 运算 其 范围 

lower waring line IJ AKIRIS IREKE hi 
为 正常 点 ， 两 条 线 外 的 点 为 
HERJE E RIRI 


落 在 


可 疑 ， 


沈 


月 
日 


两 条 线 之 
ri, WE 


间 


其 范 


各 个 


大 在 (0,1) 之 间 。 


对 间 窗 口 特 


d, F: 基于 持续 


图 中 upper warning line、 


点 被 判定 


昌 式 (2) 计 算 和 


下 两 个 净值 ， 


到 。 


TX 
分 流 
幅度 


HHE Areal 图 


中 


HAE s aj 


异常 流量 。 出 现 较 大 波动 的 原 
围 内 ， 网 络 波动 大 符合 人 们 
项 集 支 持 度 计数 的 方法 外 
Area2 和 Area3 中 的 4 


击 。 通 过 频繁 


量 符合 DOS Ka 


与 Areal 相 比 ， 


行为 。 
根据 阔 


值 低 于 设 定 的 阔 值 ， 被 判 


值 信息 


因 可 能 


真实 


义 


情况 是 这 两 个 


或 中 存在 水 平 扫 


由 此 


2.2 


的 联 
效 途 
要 的 


可 见 音 


特征 的 


需要 找到 更 精准 


EERE UD ATRA ERR 
的 辨别 


方法 。 


持续 增 量 模 型 篇 选 方法 


径 是 


单纯 用 某 些 独 立 特 
ZR: 只 能 检测 到 
安 气 流量 中 潜在 的 信息 


寺 征 的 信 ， 


SNP EEUU 


是 当前 时 i 


上 在 午休 范 
的 行为 规律 ， 但 也 可 能 确实 发 生 
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Fig.4 Topology diagram of simulated environment 
3.2 实验 结果 及 分 析 
于 CIDDS 数据 集 总 量 大 , 本 文 只 选取 第 二 周 的 第 二 
7:30 开始 到 下 午 14:35 的 150 万 条 数据 ， 数 据 包 含 了 参数 
-T1、-T2 的 低速 水 平 扫描 和 垂直 扫描 攻击 及 DOS 攻击 ， 
中 低速 扫描 攻击 15 096 条 ， 占 比 约 为 1%。 本 文采 用 检测 
和 误 报 率 两 个 指标 来 评价 模型 的 准确 度 。 检 测 率 是 指 检测 
的 端口 扫描 总 数 与 实际 端口 扫描 总 数 的 比率 ; 误 报 率 是 指 
正常 行为 判断 为 端口 扫描 的 总 数 与 检测 结果 总 数 的 比率 。 
文 将 基于 持续 增 量 模型 的 方法 和 基于 端口 比 的 方法 进行 了 
较 ， 实 验 结果 如 表 2 所 示 。 
表 2 端口 扫描 检测 方法 对 比 


Table 2 Comparison of port scan detection methods 
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0.2074 0.1705 0.0700 | 0.0157 0.0109 
0.9451] 0.9431 0.9431 0.9418 0.8828 
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常见 的 基于 端口 比 闵 值 的 方法 ， 通 过 一 定 的 时 间 段 内 
地 址 所 访问 目的 主机 数 和 端口 数 的 比值 来 判定 是 否 是 攻击 
低速 扫描 虽然 在 攻击 发 生 后 总 的 扫描 数量 依然 庞大 ， 攻 击 


正常 流量 和 攻击 流量 混杂 在 一 起 无 法 作出 有 效 区 分 ， 这 种 
糙 的 判定 方式 容易 造成 正常 流量 的 误 判 。 从 表 2 中 能 够 看 


19.8%， 可 见 端口 比方 法 对 低速 扫描 攻击 的 检测 效果 不 是 
理想 。 


误 报 率 下 降 了 约 10%。 当 阔 值 在 [0.65,0.75] 区 间 上 时 ， 


端口 比方 法 的 检测 率 最 高 达到 94% 以 上 ， 对 应 的 误 报 率 大 了 
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数 


据 的 端口 比 通常 高 于 0.65， 但 是 由 于 低速 攻击 持续 时 间 长 ， 


TH 
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相 较 于 端口 比方 法 ,持续 增 量 模型 的 检测 率 提 升 了 约 5%， 
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EA 


续 增 量 模型 的 检测 率 一 直 维 持 在 99.7896, 由 此 可 见 持续 增 量 


模型 的 检测 率 对 阔 值 的 精确 度 要 求 较 低 。 在 误 报 率 方 面 ， 
着 阔 值 的 增加 ， 误 报 率 逐渐 降低 ,在 保持 检测 率 为 99.78% 
条 件 下 误 报 率 能 降 至 7%。 


持续 增 量 模型 充分 利用 特征 之 间 的 内 在 联系 ， 构 造 二 ] 
集 与 对 应 特征 RIXA EUR, FE Vi Za um th EC m O 3 48 RT 4 


性 和 分 散 性 。 正 常 流量 的 连接 时 间 通 常 比 低 速 扫描 短暂 ， 
通信 端口 分 布 在 一 定 的 范围 内 , 访问 的 目的 I 了 P 也 有 限 ， 只 
极 少数 的 正常 流量 符合 持续 增 量 模 型 ， 经 过 筛选 大 部 分 正 
流量 被 过 滤 出 去 ,因此 检测 的 范围 将 迅速 缩小 , 检测 难度 也 
大 的 降低 。 实 验 中 过 滤 掉 的 正常 流量 占 比 超过 98.6%， 说 


" 
的 
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9] 


了 持续 增 量 模型 的 高 效 性 。 持 续 增 量 模型 在 遇 到 特征 的 数量 
不 再 增加 时 会 开始 新 的 周期 ， 这 个 机 制 使 得 异常 检测 分 阶段 
进行 ， 利 用 条 件 粒 对 特征 分 布 情况 的 计算 ， 能 够 精确 区 分 

个 连接 中 的 攻击 部 分 和 非 攻击 部 分 。 这 些 性 质 使 得 持续 增 量 
模型 的 检测 率 和 误 报 率 均 优 于 端口 比方 法 。 


4 ”结束 语 


本 文 首 先 用 单 特 征 信息 灶 做 粗 分 类 ， 挖 掘 出 明显 的 异常 
流量 ， 然 后 重点 针对 低速 扫描 攻击 作出 检测 。 根 据 端口 扫描 
特点 的 分 析 ， 将 攻击 分 为 水 平 扫描 和 垂直 扫描 ， 用 持续 增 量 
模型 过 滤 使 检测 范围 缩减 到 最 小 ， 再 用 二 项 集 组 合 的 条 件 箭 
作 最 终 的 判定 ， 分 类 后 的 检测 结果 更 细致 。 采 用 持续 增 量 模 
型 能 从 图 像 上 直观 地 看 出 攻击 发 生 时 扫描 的 强度 ， 检 测 过 程 
不 需要 先 验 知识 ， 且 检测 率 不 受 闵 值 精确 度 影 响 。 
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